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摘要 : [ 目的 ] 通过 对 评论 文本 进行 文本 分 析 , 研究 影响 酒店 用 户 满意 度 的 因素 ,为 酒店 管理 者 提供 建议 。[【 方法 】 
利用 Word2Vec 对 Tripadvisor.com 酒 店 评论 进行 特征 抽取 和 降 维 , 结合 情感 分 析 技 术 , 提取 每 类 特征 对 应 的 情感 ， 
构建 计量 经 济 模型 分 析 酒 店 特征 评价 与 用 户 满意 度 的 关系 。[ 结果 】 研 究 结 果 表 明 : (1) 评 论文 本 的 情感 表达 越 积 
极 满意 度 越 高 , 但 这 种 影响 并 非 线 性 的 , 而 是 呈现 “U”* 形 的 ; C2) 用 户 评 论文 本 中 提 到 的 特征 类 别 数 越 多 , 该 用 户 
越 有 可 能 倾向 不 满意 ; (3) 消 费 者 对 豪华 型 酒店 和 经 济 型 酒店 特征 类 别 的 关注 存在 显著 差异 , 消费 者 对 前 者 更 关 
注 员 工 服 务 , 对 后 者 更 注重 清洁 度 ; (4) 对 豪华 型 酒店 , 消费 者 满意 度 受 到 网 络 (Internet) 这 个 特征 维度 的 显著 影 
响 ， 而 对 于 经 济 型 酒店 该 维度 的 影响 则 不 显著 。[ 局 限 】 样 本 的 选择 不 够 全 面 , 未 来 可 疏 取 多 个 城市 数据 进行 
更 全 面 分 析 。[ 结论 】 从 评论 文本 角度 建立 了 酒店 特征 与 消费 者 满意 度 的 联系 ,为 酒店 在 线 口碑 研究 提供 了 理 


论 依据 。 
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酒店 特征 ”情感 分 析 


消费 者 满意 
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随 着 Web2.0 时 代 的 到 来 和 电子 商务 的 迅猛 发 展 ， 
在 社交 媒体 网 站 上 用 户 生 成 内 容 (User Generated 
Content) 已 经 成 为 消费 者 和 商家 的 主要 信息 来 源 ,在 线 
评论 不 仅 能 帮助 潜在 消费 者 做 出 购买 决策 , 还 能 帮助 
相关 管理 者 提高 其 产品 或 服务 的 质量 。 很 多 研究 表明 
在 线 评论 影响 销量 和 消费 者 购买 决策 5， 如 在 线 影评 
与 票房 收入 有 显著 相关 关系 ,在 线 书 评 对 书籍 销量 有 
积极 影响 。 而 在 线 评 论 不 仅 有 数值 属性 SQNumerical 
Attribute), "IIl: 有 用 性 投票 、 星 级 评分 、 评 论 数量 ; 还 
有 文本 属性 BIText Attribute)， 如 : 可 读 性 .评论 文本 字 
数 、 客 观 性 、 可 信 度 等 , 这 些 因素 均 可 能 对 消费 者 购 
买 意愿 产生 影响 。 然 而 很 多 学 者 研究 对 象 是 在 线 评论 
的 数值 评分 "只 有 少量 学 者 研究 了 文本 内 容 对 在 线 


评论 的 影响 1。 
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相关 经 济 学 和 市 场 理论 "证 明 产品 和 服务 有 多 维 
属性 ,由 于 消费 者 的 偏好 不 同 ,对 酒店 功能 和 服务 的 
预期 也 不 同 。 即 用 户 参 考 酒店 评论 进行 决策 时 , 会 依 
其 偏好 ,只 关注 或 更 加 关注 某 些 方面 的 特征 。 其 中 文 
献 [9] 考 虑 了 多 维特 征 对 酒店 经 济 效应 的 影响 , 也 有 学 

尝试 对 产品 和 服务 的 特征 赋予 不 同 的 重要 程度 。 因 
此 只 考虑 数值 评分 不 足以 对 用 户 生 成 内 容 得 到 全 面 和 
精确 的 评 佑 。 

考虑 到 用 户 生 成 的 内 容 一 一 即 文本 评论 包含 更 多 
更 可 靠 的 信息 , 这 些 信 息 在 旅游 网 站 的 星 级 评分 中 无 
法 反映 出 来 ， 此 外 用 户 关 心 的 一 些 特征 维度 可 能 未 体 
现在 网 站 的 定量 打分 体系 中 ,因此 本 文 基于 在 线 评论 
文本 进行 研究 。 通 过 对 消费 者 的 评论 文本 进行 文本 控 
据 ， 从 用 户 生成 内 容 得 到 顾客 真正 关心 的 维度 ,更 能 
反映 对 酒店 的 真实 意见 。 鉴 于 此 ,本 文 结合 自然 语言 
处 理 、 机 带 学 习 和 情感 分 析 技术 过 滤 保 留 在 线 评 论 中 
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最 有 价值 的 信息 。 利 用 Word2 Vec XJERI SAW 
评论 文本 进行 skip-gram 训练 , 对 关键 词 的 语义 距离 进 
行 聚 类 分 析 ,， 然后 把 每 条 评论 分 成 一 个 个 评价 单元 ， 
用 机 需 学 习 方法 对 评价 单元 进行 训练 , 得 到 每 个 评价 
单元 属于 某 一 主题 特征 ; 接着 对 其 进行 情感 倾向 和 强 
度 识 别 分 析 "， 以 此 得 到 每 个 评价 单元 的 特征 对 应 的 
情感 分 数 ; 最 后 汇总 每 条 评论 中 提 到 各 类 主题 特征 的 
情感 分 数 , 构建 计量 经 济 模型 , 分 析 酒 店 特征 的 情感 倾 
向 与 消费 者 满意 度 的 关系 , 能够 识别 酒店 特征 的 重要 
SE. 此 外 , 按照 酒店 星 级 , 将 酒店 分 为 察 华 型 酒店 和 
经 济 型 酒店 , 分 析 消 费 者 对 不 同 档 次 酒店 特征 的 偏好 。 


2 相关 研究 
2.4 酒店 特征 对 消费 者 满意 度 的 影响 
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的 研究 之 一 上， 是 指 对 在 线 评 论文 本 进行 情感 分 析 ， 
判断 文本 的 情感 极 性 是 积极 、 消 极 还 是 中 立 , 或 识别 
用 户 的 观点 是 “赞同 ”还 是 “反对 ”。 该 技术 被 广泛 用 于 
预测 产品 销量 、 政 治 投票 、 票 房 收入 、 股 票 波动 等 ， 如 
文献 [22] 运 用 评论 对 产品 和 商家 进行 排名 , 文献 [23] 将 
Twitter 情感 分 析 用 于 预测 选举 结果 , 文献 [24-25] 运 用 
推 特 数据 、 电 影评 论 以 及 博客 文本 进行 情感 分 析 ， 预 测 
电影 票房 收入 。 情 感 分 析 涉及 多 种 技术 , 如 自然 语言 处 
理 、 信 息 抽取 、 机 器 学 习 等 。 特 征 情 感 预 测 模型 代表 工 
作 是 Liu 等 5 的 研究 , 他 们 首先 识别 出 评论 文本 中 的 产 
寺 征 属性 , 然后 针对 每 个 特征 属性 , 得 到 文本 中 的 正 
情感 和 负 向 情感 内 容 ， 最 后 输出 特征 属性 及 其 对 应 
的 情感 极 性 。Li 5 P9 51 Blair-Goldensohn 等 ?为 当地 服 
务 行业 如 和 餐馆 和 酒店 构建 了 意见 总 结 系统 ， 通 过 频繁 
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基于 在 线 评论 文本 研究 酒店 特征 对 消费 者 满意 度 
的 影响 程度 , 现 有 研究 主要 采用 以 下 方法 : 领域 专家 
意见 、 语 法 研究 方法 、 以 及 模型 分 析 法 。 

最 直观 的 方法 是 根据 相关 领域 专家 的 认 知 意见 对 
酒店 特征 进行 识别 并 评价 , 但 是 专家 意见 无 法 代表 广 
大 顾客 的 真实 体验 , 男 外 专家 意见 带 有 很 强 的 主观 性 
难免 会 受到 诸多 偏见 的 影响 ”1 语法 研究 方法 是 指 : 
被 越 多 的 形容 词 修饰 的 特征 词 ， 可 推测 这 些 特征 越 重 


名 词 方法 挖掘 服务 相关 的 特征 如 Service, Value, 然后 
汇总 每 个 特征 的 情感 分 数 。 本 文 情感 分 析 方 法 借鉴 前 人 
采用 基于 情感 词典 的 方法 计算 情感 指标 1 得 到 特征 
对 应 的 情感 分 数 , 旨 在 为 后 面 计量 模型 作 进 一 步 分 析 。 


3 ”研究 方法 


本 文 研究 包括 文本 语 料 预 处 理 、Word2Vec、 基 于 
监督 学 习 方 法 的 特征 分 类 、 人 情感 分 析 和 有 序 逻 辑 回 归 


要 。 通 过 句法 依存 关系 ， 确 定 修饰 特征 词 的 形容 词 个 
数 ， 然 后 聚 类 形容 词 识别 特征 的 重要 度 一 5 。 文献 [16] 
利用 多 变量 回归 识别 “特征 -观点 对 ”的 重要 性 , 将 其 
作为 自 变 量 , 星 级 评分 作为 因 变 量 , 计算 每 个 特征 的 
重要 度 。 但 这 个 回归 方法 存在 一 定 问题 , 因为 有 人 研究 
证 明 一 星 级 评论 比 五 星 级 评论 往往 能 给 用 户 带 来 更 多 
的 有 用 信息 中 ,文献 [17] 采 用 计量 模型 研究 特征 的 情感 
对 消费 者 意愿 的 影响 , 但 该 方法 在 分 析 特 征 的 情感 时 ， 
只 考虑 情感 极 性 , 未 考虑 情感 强度 。 文 献 [18] 改 善 了 文 
献 [19] 对 在 线 评论 意见 挖掘 的 范式 ,对 最 常见 名 词 运 
用 一 组 过 滤器 , 通过 NLP 技术 自动 识别 产品 特征 属 
性 , 并 发 现 特征 属性 的 近义词 , 王 伟 等 中 I 对 亚马逊 386 
款 数码 相机 的 评论 数据 , 结合 情感 分 析 和 计量 模型 ， 
分 析 用 户 购 买 意愿 与 产品 特征 评价 的 关系 。 本 文 借鉴 
王 伟 等 "的 思路 , 结合 酒店 特征 情感 和 计量 模型 ,分 
析 消 费 者 满意 度 与 酒店 特征 评价 的 关系 。 
2.2 ”情感 分 析 

情感 分 析 作 为 当前 自然 语言 处 理 领域 中 最 为 活跃 


模型 。 笔 者 采用 Word2Vec TR, 将 词 映射 到 K 维 向 
量 空间 , 向 量 空间 上 的 相似 度 可 以 用 来 表示 文本 语义 
ERJEN., 

首先 根据 Word2Vec 得 到 评论 语 料 可 以 分 为 7 大 
类 特征 维度 ,接着 进行 特征 识别 ， 即 得 到 每 个 短 分 名 
所 属 的 特征 类 别 , 然后 通过 情感 分 析 技 术 计 算 其 情感 
分 数 ,最 后 归 类 汇总 是 指 根据 评论 Reviewid) 汇 总 每 
条 评论 在 不 同 特征 类 别 的 情感 分 数 。 在 特征 识别 阶段 ， 
主要 根据 特征 词 进行 人 工 标记 , 但 同时 结合 领域 知识 
判断 属于 哪个 大 类 “the food was great” 由 每 个 类 别 出 
现 的 特征 词 可 标记 为 “Food 维度， 而 存在 少量 短 分 名 
表意 模糊 需要 结合 酒店 领域 知识 判断 如 “TI think the 
room is fairly clean” 则 标记 为 “Cleanliness” 维 度 。 本 文 
人 研究 框架 如 图 1 所 示 。 
31 数 idm 
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LocoySpider (http:/www.locoycom) 采 集 Tripadvisor.com 
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图 1 本 文 研 究 框架 


所 有 酒店 的 在 线 评论 ，Tripadvisor.com 在 线 评 论 详情 
页 如 图 2 所 示 , 采集 包括 在 Location, Rooms, Value, 
Cleanliness, Sleep Quality 等 5 个 维度 的 星 级 打分 
(Original Multiple Rating), 评论 的 ID 、 总 体 评 分 
(Rating)， 以 及 评论 的 标题 、 文 本 (Review Text)。 经 过 
清洗 得 到 217 518 条 英文 酒店 评论 , 针对 Las Vegas 的 
所 有 在 线 评论 (217 518 条 评论 , 约 4000 万 个 单词 ) 进 
fT Word2Vec 分 析 , 训练 得 到 每 个 词 的 向 量 。 在 计量 
模型 中 随机 选取 5124 条 评论 ， 其 中 豪华 型 酒店 
2625 条 ,经 济 型 酒店 2 499 条 。 
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图 2 Tripadvisor.com 在 线 评 论 
p 


3.2 bE 

对 于 英文 文本 语 料 ,处 理 步骤 如 下 。 

(1) 单词 词根 化 、 统 一 小 写 ; 

Q) 去 停 用 词 ， 如 连接 词 、 介词、 人称 代词 “and, in, 
you" 等 ; 

O) 移 除 与 情感 、 酒 店 特征 无 关 的 单词 ， 如 酒店 评 
论文 本 中 的 “hotel, any” 等 。 
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3.3 ”基于 Word2Vec 的 酒店 特征 词 聚 类 

(1) Duan 等 站 提取 频繁 出 现 的 名 词 作为 酒店 候选 
TRAE, 本 文通 过 对 文本 语 料 分 析 初 步 得 到 酒店 评论 中 
的 高 频 名 词 , 词 云 图 如 图 3 Br. 发 现 用 户 对 早餐 
(breakfast)、 自 助 餐 (buffet)、 清 洁 度 (clean)、 无 线 网 络 
(wireless) 、 房 间 (r00m)、 价 值 (worth)、 位 置 (location) 
等 比较 关心 。 


afic casiom smoke _ room l wil kf csl — huffet 
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图 3 评论 语 料 高 频 名 词 词 云图 


(2) 除去 高 频 词 中 的 噪音 ,根据 文献 [18] 过 滤 高 频 
词 噪音 的 方法 , 采用 极 大 似 然 比 测试 每 一 个 已 识别 的 
名 词 , 计算 其 在 相关 类 别 评论 (如 酒店 评论 ) 和 非 相 关 类 
别 评论 (如 书籍 评论 ) 的 相对 频率 差异 。 似 然 比较 低 的 名 
词 被 认为 是 不 相关 的 , 过 滤 掉 。 由 于 似 然 比 是 渐进 万分 
布 ， 靖 值 设 置 高 于 p=.05 水 平 的 名 词 作 为 候选 产品 特征 ， 
同时 人 工 编译 一 组 不 相关 的 名 词 ， 比 如 命名 实体 hotel、 
酒店 品牌 Hilton， 然 后 从 候选 名 词 中 去 掉 这 些 不 相关 的 
名 词 。 最 后 一 共 得 到 55 个 酒店 特征 名 词 。 

(3) 采用 Word2Vec 工具 对 包含 40 953 696 个 词 的 酒 
店 评论 文本 训练 (threads = 3, vectors = 100, window-12), 
得 到 每 个 词 的 词 向 量 , 然后 抽取 步骤 (2) 中 55 个 酒店 
特征 名 词 癌 量 表示 , 将 词 向 量 之 间 的 欧 几 里 得 距离 定 
义 为 词 之 间 的 相似 度 , 通过 K-means 聚 类 算法 将 获取 
的 词 向 量 进行 聚 类 。 

采用 轮廓 系数 (Silhouette Coefficient) 考 察 徐 的 分 
离 情况 和 篮 的 紧凑 情况 以 评估 聚 类 质量 。 将 聚 类 类 别 
K 设置 为 从 2 到 15, 重复 执行 50 K, 得 到 结果 如 图 4 
和 图 5 所 示 。 
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图 4 Silhouette Coefficient 结果 


从 图 4 可 以 明显 看 到 在 K=7 时 达到 顶峰 , 根据 
Silhouette Coefficient 的 定义 , 值 较 大 时 的 K 较 优 。 最 
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7 后 将 数据 从 100 维 降低 到 2 维 平 面 ,并 绘制 聚 类 效果 。 
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3.4 基于 机 器 学 习 的 特征 分 类 

与 本 文 类 似 的 文献 [16,33]， 前 者 将 酒店 评论 分 成 
句子 , 然后 运用 Naive Bayes 选 择 名 词 作为 训练 特征 将 
每 个 句子 划分 到 5 个 维度 ， 其 准确 率 (Accuracy) 达 到 
68%; 后 者 将 餐馆 评论 划分 成 句子 , 然后 运用 Support 
Vector Machine 将 句子 分 到 食品 、 服 务 、 价 格 、 和 氛围 、 
叙事 类 和 其 他 6 个 维度 ,其 中 食物 是 准确 率 (Precision) 
最 高 维度 ,达到 81.43%, 叙事 类 最 低 为 49.15%, 平均 
准确 率 为 70.34%。 


根据 前 一 步 , 已 经 将 顾客 关注 的 特征 分 为 Food( 餐 
饮 ) 、Facility( 设 施 ) 、Staff 员 工 服务 )、Cleanliness( 清 洁 
度 )、Location( 位 置 )、Value ( 物 有 所 值 )、Internet( 网 络 ) 
等 7 大 类 , 借鉴 文献 [16,33]， 首先 根据 标点 符号 
“，、.、!、?” 等 将 每 条 评论 划分 成 短 分 句 , 然后 去 掉 完 
全 没有 出 现 积 极 或 消极 情感 词 的 客观 句 ， 如 “we went 
up to the room", 接着 去 掉 未 包含 酒店 特征 词 的 句子 ， 
如 “other complaints are minor”。 最 后 得 到 约 10 万 条 意 


见 单元 ,其 平均 字数 为 6。 评价 单元 示例 如 表 1 所 示 。 


9» 


t 


表 1 评价 单元 示例 

reviewid Opinion Unit Word count Label 
155764734 the rooms were a great size and layout 8 Facility 
155344163 it is fairly clean 4 Cleanliness 
117415795 the food was great 2 Food 
117474538 the location at the cosmo is great 7 Location 
117490549 food amazing 2 Food 
118435844 great value for the money 3 Value 
118683963 internet is free and fast 5 Internet 
143482015 staff was very friendly and helpful. 6 Staff 
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使 用 机 器 学 习 方法 ， 旨 在 得 到 每 个 短 句 所 属 的 特 
征 类 别 。 由 于 不 确定 哪 种 分 类 器 更 适合 本 文 数据 集 ， 
故 分 别 使 用 Multinomial Naive Bayes 和 Support Vector 
Machines 两 种 分 类 器 进行 分 类 。 结 果 如 表 2 所 示 , 表 
B] SVM 更 适合 本 文 的 特征 分 类 , 每 个 类 别 的 分 类 准 
确 率 (Precision) 均 高 于 Multinomial Naive Bayes, 日 平 
均 准 确 率 为 80%， 比 文献 [16,33] 分 类 效果 好 ， 故 后 续 
采用 SVM 对 所 有 评价 单元 进行 分 类 。 

表 2 基于 机 器 学 习 的 特征 分 类 效果 比较 


m Naive Bayes SVM 
特征 
Precision Recall Precision Recall 
Cleanliness 74% 78% 75% 7171% 
Facility 78% 64% 82% 82% 
Food 87% 83% 86% 83% 
Internet 73% 88% 74% 86% 
Location 65% 84% 69% 85% 
Staff 88% 85% 87% 87% 
Value 80% 80% 80% 81% 
Total Accuracy 79% Accuracy 80% 


3.5 ”基于 词典 的 情感 分 析 

运用 基于 情感 词典 方法 计算 每 个 短 句 的 情感 。 在 
情感 分 数 的 计算 中 , 情感 词典 的 选择 至 关 重 要 ， 因 为 同 
一 情感 词 在 不 同 的 场景 下 的 意思 表达 可 能 不 一 致 六。 本 
文选 择 的 情感 词典 来 自 于 文献 [19]。 以 往 研 究 中 通常 
只 标记 情感 词 和 短语 ， 并 未 考虑 到 情感 转换 器 ， 而 这 
种 方法 并 不 科学 。 本 文 借鉴 Ding 等 中 基于 语 料 的 方法 ， 
考虑 了 情感 转换 器 ,也 称 效 价 转换 器 请” 1]， 是 由 一 些 
可 以 改变 情感 倾向 的 词 和 短语 构成 。 典 型 的 否定 转换 
器 ， 如 : 不 (not), 决 不 (never), 没有 (none), 没有 人 
(nobody), RAHAA (nowhere), 也 不 (neither)， 以 
及 不 能 (cannob 等 。“ 这 个 酒店 的 位 置 非 常 棒 [+1]”， 由 
于 否定 词 “ 不 ” 将 句子 变 成 “这 个 酒店 的 位 置 不 是 非常 
棒 [-1J*。 这 一 步 对 计算 所 得 的 情感 分 数 , 使 用 意见 加 
总 器 计算 出 每 条 评论 里 每 个 短 句 的 情感 分 数 。 假 设 名 
子 si 含有 一 系列 情感 转换 词 VUE" Wy. A 
及 一 系列 情感 极 性 词 (V.P Ws Wy} 。 对 于 句子 s; 
中 的 特征 Senti; 由 下 面 加 总 消 数 决定 : 

Weg = > W,” mod2 (1) 


2+W 
Gs WD) ~ Q) 
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Senti; = C; /4|word _ count; (3) 

由 公式 (D 至 公式 (3) 可 以 得 到 每 个 评价 单元 的 情 
感 分 数 , 文献 [16, 33] 指 出 每 个 评价 单元 非常 短小 , 所 
得 情感 分 数 就 是 消费 者 对 相应 酒店 特征 的 意见 看 法 。 
最 后 ,根据 每 条 评论 , 汇总 每 类 特征 的 情感 分 数 , 得 
到 评论 特征 情感 矩阵 ,由 此 得 到 每 条 评论 中 对 
Food(^& 4X ) Facility Qg E), Staf n T ARS). 
Cleanliness( 清 洁 度 ) Location(M E), Value ( 物 有 所 
值 )、Internet( 网 络 ) 这 7 个 维度 的 情感 分 数 。 


4 实验 与 结果 分 析 


本 文 基于 在 线 评论 文本 进行 研究 , 之 所 以 不 选择 
网 站 提供 的 数值 型 星 级 打分 而 是 选择 文本 型 的 评论 内 
t, 是 因为 笔者 认为 用 户 生成 的 内 容 一 一 即 文本 评论 
包含 更 多 更 可 靠 的 信息 ,这些 信 息 在 旅游 网 站 的 星 级 
评分 中 是 无 法 反应 出 来 的 , 男 外 用 户 关 心 的 一 些 特征 
维度 可 能 在 网 站 的 定量 打分 体系 中 未 体现 。 由 于 本 研 
究 的 因 变 量 是 有 序 变量 ,其 满意 度 水 平 从 1 到 5 依次 
增 大 ,代表 满意 度 由 弱 到 强 ， 因 此 选择 有 序 逻 辑 回 归 
(Ordinal Logistic Regression) 方 法 建立 回归 模型 5 。 
41 ”模型 变量 的 描述 性 统计 分 析 

从 表 3 描述 性 统计 结果 分 析 ， 新 维度 下 顾客 对 每 
个 维度 的 情感 表达 有 正 有 负 , 其 中 对 设施 (Facility) 这 
个 维度 其 最 小 值 为 -4.65, 最 大 值 为 11.1, 不 管 是 从 消 
极 情感 的 强度 还 是 积极 情感 的 强度 ,其 绝对 值 均 是 7 
个 维度 中 最 大 的 , 表明 情感 最 强烈 ,其 次 是 人 员 服 务 
(Staff) 这 个 维度 ,其 最 小 值 为 -4.02, 最 大 值 为 8.17, 情 
感 强烈 程度 仅 次 于 设施 (Facility) 维 度 。 而 对 于 原始 维 
度 Location, Rooms, Value, Cleanliness , SleepQuality, 
这 些 维度 的 打分 从 1 到 5, 平均 值 比较 接近 , 维度 间 可 
能 存在 较 强 相关 性 ， 而 且 这 些 数 据 都 存在 一 定 的 缺失 ， 
数据 并 不 完整 。 
4.2 ”原始 与 重新 生成 的 酒店 特征 维度 相关 系数 对 比 
分 析 

对 选取 的 5 214 条 评论 进行 情感 分 析 , 对 新 生成 
的 各 个 维度 进行 相关 性 考察 ， 如 表 4 所 示 。 

R 5 表明 网 站 原始 的 5 个 维度 之 间 相 关系 数 是 显 
著 的 ， 说 明 彼此 是 相关 的 。 原 始 5 个 维度 相关 系数 最 
小 的 为 0.43, 最 大 的 达到 0.73。 这 种 高 度 的 相关 性 及 


显著 性 说 明 这 个 评价 模型 在 维度 的 划分 上 不 够 合理 ， 
存在 一 定 的 问题 , 不 能 够 真实 准确 地 反映 顾客 对 酒店 
某 些 方面 的 实际 态度 。 而 新 维度 两 两 之 间 相 关系 数 比 
BUN, 最 大 也 只 有 0.22。 除 了 网 络 (Internet) 与 位 置 
(Location) 相 关系 数 为 负数 ， 其 他 维度 之 间 的 相关 系数 
均 为 正 数 , 说 明 消 费 者 对 某 个 维度 感受 会 受到 其 他 维 
度 的 正 向 影响 。 因 此 , 为 了 研究 不 同 特征 对 酒店 总 体 
满意 度 的 影响 , 利用 新 维度 下 的 数据 是 合理 的 。 

表 3 变量 的 描述 性 统计 分 析 结果 


Statistic N Mean St.Dev. Min pA Median na Max 
(25) (75) 
food senti 5124 0.21 0.44 -1.64 0 0 0.39 3.05 
facilities senti 5124 0.6 1.05 -4.65 0 0.44 1.12 11.1 
value senti 5124 0.11 0.45 -2.52 0 0 0.22 3.78 
staff senti 5124 0.35 0.73 -4.02 0 0.12 0.71 8.17 
cleanliness senti 5124 0.2 0.56 -2.8 0 0 0.41 4.16 
location senti 5124 0.21 0.38 -1.45 0 0 0.38 2.77 
internet senti 5124 0.05 0.28 -1.74 0 0 0 449 
location 4310 4.31 0.96 1 3 4 5 5 
rooms 4356 3.96 A7 1 3 4 5 5 
value 4862 3.87 1.21 1 3 4 5 5 
cleanliness 4842 3.94 1.21 1 3 4 5 5 
sleepquality 4074 4.03 1.18 1 3 4 5 5 
ave sentiment 5124 0.24 0.26 -1.53 0.08 0.23 0.39 2.29 
AvgRating 5124 3.78 1.22 1 3 4 5 5 
de 4 新 维度 下 的 相关 系数 表 


Food Facilitity Value Staff ^ Clean Location Internet 


Food 1 0.18 0.09 0.13 0.14 0.09 0.07 
Facilitity 1 0.06 0.22 0.15 0.18 0.07 
Value 1 0.10 0.13 0.04 0.11 
Staff 1 0.16 0.12 0.08 
Cleanliness 1 0.06 0.11 
Location 1 —0.003* 
Internet 1 


4.3 酒店 特征 情感 对 满意 度 的 影响 

对 酒店 特征 的 研究 颇 多 , 经 典 理论 SERVQUAL 
模型 I 往往 问 项 过 多 、 理 论 性 太 强 ， 随 着 点 评 网 站 和 
旅游 网 站 的 兴起 , 传统 问卷 不 再 是 获取 数据 的 必 经 途 
径 。 有 不 少 学 者 对 酒店 特征 进行 了 相关 研究 ， 如 Liu 
等 59 对 酒店 清洁 度 、 位 置 、 房 间 、 服 务 、 睡 眠 质量 、 
物 有 所 值 等 维度 进行 研究 ; 文献 [33] 研 究 酒店 的 服务 、 
餐饮 、 设 施 、 卫 生 、 人 位置、 价格 等 维度 对 酒店 满意 度 
的 影响 ; 能 伟 等 上 研究 酒店 的 房间 、 网 络 、 餐 饮 、 选 
址 等 因素 对 酒店 综合 满意 度 的 影响 ,文献 [38] 表 明 价 
值 、 房 间 和 服务 是 顾客 对 酒店 最 关注 的 因素 ,而 文 
献 [37] 指 出 消费 者 对 不 同 档次 的 酒店 偏好 不 同 , 豪华 
型 酒店 的 消费 者 对 网 络 要 求 严 格 , 而 经 济 型 酒店 的 客 
人 对 牙膏 、 牙 刷 等 基本 清洁 服务 有 比较 高 的 要 求 。 从 
整体 上 看 ,关于 酒店 满意 度 的 研究 已 经 比较 深入 , 但 
资料 数据 主要 是 通过 调查 问卷 或 采集 数值 评分 , 未 从 
用 户 生 成 的 文本 内 容 挖 掘 消费 者 的 真实 想法 。 针 对 此 ， 
本 文 对 专业 上 且 大 型 的 旅游 点 评 网 的 网 友 评 论 进 行 整理 
分 析 , 总 结 出 消费 者 对 酒店 特征 关注 偏好 以 及 其 偏好 
评价 对 酒店 满意 度 的 影响 ,以 期 对 酒店 满意 度 研 究 提 
供 一 定 参 考 。 

本 文 计 量 模型 中 , 模型 (1) 将 顾客 总 体 满意 度 作为 
因 变 量 ， 人 员 服 务 (staff_senti)、 餐饮 (food_senti)、 清洁 
度 (cleanliness senti) 、 设 施 (facility senti) 、 位 置 
(location_senti)、 价 格 (value_senti) 作 为 影响 总 体 满意 度 
的 自 变量 , 并 控制 了 酒店 个 体 的 固定 效应 。 

有 人 研究 表明 ,在 不 同 档次 的 酒店 中 , 顾客 对 不 同 
档次 酒店 的 体验 和 偏好 不 同 PP。 为 了 考察 顾客 对 不 同 
档次 酒店 各 维度 的 关注 情况 , 笔者 按照 酒店 星 级 将 酒 
店 分 为 察 华 型 和 经 济 型 : 其 中 星 级 水 平 大 于 等 于 4 的 
AES, 星 级 水 平 小 于 等 于 3 的 为 经 济 型 酒店 。 
模型 (2) 和 模型 (3) 分 别 对 豪华 型 和 经 济 型 数据 进行 回 


表 5 原始 维度 的 相关 系数 表 


Location Rooms Value Clean 


SleepQuality 


Location 1 0.61" 0.43" 0.49™ 0.53" 
Rooms 1 0.7" 0.3" 0.72" 
Value 1 0.62" 0.61" 
Cleanliness 1 0.65 
SleepQuality 1 


归 和 对 比分 析 。 

从 消费 者 在 评论 文本 提 到 的 特征 类 别 数 和 总 体 
情感 表达 进行 研究 , 模型 (4) 以 顾客 总 体 满 意 度 作 为 
变量 , 评论 文本 提 到 的 特征 类 别 数 (Num of 
feature)、 总 体 情感 表达 (ave_sentiment) 以 及 总 体 情感 
强度 (sentiment^2) 作 为 自 变 量 ,回归 输出 结果 如 表 6 
所 示 。 
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表 6 回归 模型 结果 
Dependent variable: as.factor(AvgRating) 
(1) (2) (3) (4) 
y=2 2.09006" 1.8908" 2.3932" 2.1126™ 
-0.0571 . (0.0747) (0.0925) (0.0600) 
yze3 1.0706" 0.8228" 1.3668" 0.9845" 
—0.0438 (0.0589) (0.0686) (0.0457) 
yzm4 -0.2140"" -0.7763" 0.3546" -0.4444"" 
—0.0402 (0.0577) (0.0605) (0.0429) 
y=5 —1.6895”™ -2.5997"' -0.9835”” -1.9997™ 
-0.0456 (0.0735) (0.0626) (0.0494) 
food senti 0.3006" 0.4529" | 0.4552" 
-0.0626 . (0.0786) . (0.1131) 
facility senti 0.6049"* 0.5666" 0.4389" 
-0.0296 — (0.0415) (0.0440) 
value senti 0.3540" 0.5665" . 0.6579" 
-0.0599 (0.0724) | (0.1231) 
staff senti 0.7608" 0.8931" 0.7486" 
-0.0424 . (0.0592) (0.0651) 
cleanliness senti — 0.4665" — 0.6457" — 0.7906" 
—0.0499 . (0.0604) (0.1069) 
location senti 0.5236" 0.4926" . 0.3709" 
—0.0731 . (0.0984) (0.1138) 
internet senti 0.0624 0.3743"  —0.1412 
—0.0964 (0.1049) (0.3502) 
ave sentiment 6.7401" 
(0.1954) 
sentiment^2 -3.7624 
(0.2259) 
Num of feature -0.0802 
(0.0178) 
Observations 5, 124 2,625 2, 499 5, 124 
R? 0.2571 0.3437 0.2087 0.3229 
chi? (df = 7) 1424.3920"" 1037.0600"" 538.1301" 1 863.1670" 


(E: "p«0.1; "p«0.05; “p<0.01) 


X 6 中 模型 的 回归 结果 , 模型 (1) 表 明 涉 及 设施 
(Facility)、 人 员 服 务 (Staff)、 位 置 (Location)、 清 洁 度 
(Clean), 食物 (Food)、 价格 (Value) 等 特征 维度 ,消费 者 
的 满意 度 受 到 这 些 维度 情感 的 正 向 影响 , 其 中 人 员 服 
务 (Staf 特 征 维度 的 系数 为 (0.7608，p= -0.0424)， 其 优 
势 比 OR(Odd Ratio)=2.139988; 设施 (Facility) 这 个 特 
征 维 度 的 系数 为 (0.6049，p=-0.0296), 其 优势 比 OR= 
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生 概 率 的 影响 程度 。 由 上 述 系 数 表明 人 员 服 务 明显 比 
其 他 特征 维度 的 优势 比 大 , 表明 酒店 提供 的 人 员 服 务 
质量 对 顾客 评分 的 影响 最 大 ,其 次 是 设施 。 而 其 中 网 
络 (Internet) 对 满意 度 的 影响 不 显著 ,可 能 是 网 络 这 个 
维度 概念 在 酒店 出 现 得 比较 晚 ， 不 如 其 他 维度 广 为 熟 
知 ， 可 能 对 满意 度 有 一 定 影响 但 只 有 少数 消费 者 有 意 
识 在 评论 中 对 该 维度 表达 。 

通过 模型 (2) 和 模型 (3) 对 比 发 现 ， 对 于 豪华 型 酒 
店 ， 人 员 服 务 (Sta 甸 对 消费 者 满意 度 影响 最 大 ， 其 系数 
为 (0.8931，p=0.0592，OR=2.44269)， 而 对 于 经 济 型 酒 
Jh, 虽然 该 维度 对 用 户 满意 度 影 响 很 大 , 但 其 系数 为 
(0.7486, p-0.0651, OR-2.114038), 表明 人 员 服 务 对 消 
费 者 满意 度 影响 方面 , 经 济 型 酒店 低 于 豪华 型 酒店 。 
对 经 济 型 酒店 , 最 影响 消费 者 满意 度 的 是 酒店 的 清洁 
程度 (Cleanliness), 经 济 型 酒店 越 干 净 整 洁 , 顾客 越 容 
易 满意 。 而且， 网络 (Internet) 这 个 特征 维度 对 不 同 档 次 
酒店 的 满意 度 影响 不 同 , ,对 于 豪华 型 酒店 ， 网 络 覆 盖 
程度 、 易 用 程度 对 消费 者 满意 度 有 正 向 影响 , 可 能 选 
择 豪 华 型 酒店 的 消费 者 更 多 是 商务 出 行 的 用 户 ,由 于 
办 公 需 求 ,满意 度 明显 受到 网 络 好 坏 的 影响 。 而 对 经 
济 型 酒店 , 网络 特征 维度 对 满意 度 则 没有 显著 影响 。 
对 于 模型 (4), 顾客 的 极度 满意 情绪 或 不 满 情绪 在 
评论 文本 中 得 到 体现 , 故 分 析 评 论文 本 的 内 容 至 关 重 
要 。 其 中 文本 中 的 情感 表达 与 满意 度 感知 方向 一 致 ， 
情感 表达 越 正 向 , 满意 度 越 高 ,而 情感 表达 的 强度 对 
满意 度 的 影响 是 非 正 向 的 。 另 外 , 评论 文本 中 提 到 的 
特征 数量 越 多 , 满意 度 越 低 。 由 此 表明 , 在 评论 文本 中 
提 到 的 特征 维度 数量 越 少 , 用 户 满 意 度 越 高 。 


5 结 i& 


通过 对 Tripadvisor.com 酒店 原始 维度 评价 体系 进 
行 分 析 , 表明 该 网 站 所 划分 的 “位 置 、 房 间 、 价 格 、 睡 
眠 质量 、 清 洁 度 ”各 维度 相关 性 较 高 , 另外 还 存在 消费 
者 在 评分 时 不 能 确定 某 种 感受 属于 哪 一 个 维度 ,消费 
者 想 评价 的 特征 又 没有 相应 的 维度 可 以 评价 ， 这 从 侧 
面 反映 对 定量 的 星 级 评论 进行 研究 时 存在 不 真实 、 不 
完整 、 不 准确 的 问题 。 
通过 对 评论 文本 进行 宏观 和 微观 的 文本 分 析 , 并 
结合 情感 分 析 技 术 , 建立 有 序 逻 辑 回归 模型 ， 发 现 对 


1.831069., 优势 比 表明 自 变量 增加 一 个 单位 ,变量 对 发 
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酒店 总 体 满 意 度 影响 最 大 的 是 设施 ,如 房间 大 小 、 卧 
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室 舒 适 程 度 、 阳 台布 局 、 游 泳池 等 , 其 次 是 人 员 服 务 。 
对 酒店 档次 进行 分 类 后 发 现 , 入 住 豪 华 型 酒店 消费 者 
满意 度 明 显 受到 网 络 维度 的 影响 WiFi、Intemet 的 连 
接 和 易 用 程度 对 满意 度 的 影响 较 大 。 同 时 选择 豪华 型 
酒店 的 顾客 最 关注 酒店 的 人 员 服务 ， 而 对 经 济 型 酒店 
消费 者 满意 度 影响 最 大 的 清洁 程度 。 本 文 的 研究 结果 
有 助 于 酒店 管理 者 以 最 低 成 本 投入 换 来 最 高 的 总 体 满 
AREE: 酒店 重心 应 放 在 设施 和 服务 这 两 个 维度 上 , 致 
力 于 为 顾客 留 下 美好 的 第 一 印象 和 最 后 印象 ; 豪华 型 
酒店 应 该 意识 到 网 络 这 个 维度 对 消费 者 满意 度 有 着 显 
车 影响 , 经 济 型 酒店 则 需要 保证 酒店 的 清洁 度 ,注意 
卫生 管理 。 通 过 对 酒店 评论 文本 分 析 , 不 同类 型 酒店 
的 管理 者 可 以 用 更 少 的 投入 获得 更 显著 的 回报 , 这 对 
酒店 的 长 远 发 展 具有 重要 战略 意义 。 

本 文 的 不 足 之 处 在 于 : 样本 的 选择 不 够 全 面 。 笔 
者 在 获取 酒店 文本 评论 时 ， 只 面向 一 个 城市 ， 而 有 研 
究 表明 顾客 在 不 同 的 城市 选择 酒店 时 关注 点 也 是 不 同 
的 ， 比 如 顾客 评论 伦敦 酒店 清洁 度 时 ，Bug( 虫 子 ) 可 能 
是 高 频 词 ， 而 本 文 分 析 的 拉 斯 维 加 斯 酒店 语 料 中 该 词 
几乎 没有 出 现 , 由 于 特定 地 理气 候 ,影响 消费 者 对 满 
意 度 感知 的 特征 因素 往往 不 相同 。 未 来 研究 可 从 多 个 
城市 收集 样本 进行 全 面 的 对 比分 析 。 
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The Impacts of Reviews on Hotel Satisfaction: A Sentiment Analysis 
Method 


Wu Weifang Gao Baojun Yang Haixia Sun Hanlin 
(Economics and Management School, Wuhan University, Wuhan 430072, China) 


Abstract: [Objective] This paper analyzes the online hotel reviews to identify the factors influencing the customer's 
satisfaction, and then provides suggestion to the management. [Methods] First, we extracted features and reduced 
dimensionality of travelers’ comments from Tripadvisor.com with the help of Word2Vec technique. Secondly, we 
extracted the characteristics of each type of the corresponding emotion based on sentiment analysis technology. Finally, 
we constructed an econometric model to analyze the correlation between the hotel reviews and users’ satisfaction. 
[Results] We found that positive reviewers were generally satisfied with the hotel service, however, there was no linear 
relations between the two factors. The more feature categories mentioned by the user in comments, the more likely he 
or she was not satisfied. The consumers paid more attention to the staff of the luxury hotels, while cared the cleanliness 
of the economic ones. Consumers' attitudes towards luxury hotels were significantly affected by the Internet, which 
posed less obvious influences to the economic ones. [Limitations] The sample was not comprehensive, and more 
studies are needed to analyze data from multiple cities. [Conclusions] This study lays theoretical foundation for the 
online word-of-mouth research from the perspective of user generated contents. 
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